Statistische Signifikanz

Statistisch signifikant wird das Ergebnis eines statistischen Tests genannt, wenn Stichprobendaten so stark von einer vorher festgelegten Annahme (der Nullhypothese) abweichen, dass diese Annahme nach einer vorher festgelegten Regel verworfen wird.

Hierfür wird nach gängiger Praxis vor der Testdurchführung ein Signifikanzniveau festgelegt, das die Fehlerwahrscheinlichkeit 1. Art, also die Wahrscheinlichkeit, dass eine Nullhypothese (Hypothesis to be nullified – „Hypothese, die [anhand der Studiendaten] verworfen werden soll“^[1]) fälschlich verworfen wird, nach oben beschränkt. Die Fehlerwahrscheinlichkeit 1. Art wird auch als Irrtumswahrscheinlichkeit bezeichnet, das vorgegebene Signifikanzniveau dementsprechend auch zugelassene oder erlaubte Irrtumswahrscheinlichkeit genannt. Der Fehler 2. Art liegt vor, wenn die Nullhypothese nicht abgelehnt wird, obwohl sie falsch ist. Die Fehlerwahrscheinlichkeit 2. Art, also die Wahrscheinlichkeit einen Fehler 2. Art zu begehen, ist in der Regel umso größer, je kleiner das Signifikanzniveau ist. Zu Fragen nach der Stärke von Effekten, der Relevanz der Ergebnisse für eine bestimmte Fragestellung oder deren Übertragbarkeit auf andere Umstände gibt das Ergebnis eines Signifikanztests keine Auskunft.

Der p-Wert als Maß der statistischen Signifikanz wird häufig fehlinterpretiert und falsch verwendet, weswegen sich die American Statistical Association im Jahr 2016 genötigt sah, eine Mitteilung über den Umgang mit statistischer Signifikanz zu veröffentlichen.^[2] Einer kleinen kanadischen Feldstudie von 2019 zufolge wird in etlichen Lehrbüchern der Begriff nicht korrekt vermittelt.^[3]

↑ Gigerenzer G. (2004). Mindless statistics. J. Soc. Econ. 33, 587–606. doi:10.1016/j.socec.2004.09.033, zitiert nach Fisher, Neyman-Pearson or NHST? A tutorial for teaching data testing. Frontiers in Psychology 2015; 6: 223. PMC 4347431 (freier Volltext)
↑ R. Wasserstein, N. Lazar: The ASA’s Statement on p-Values: Context, Process, and Purpose. In: The American Statistician. Band 70, Nr. 2, 2016, S. 129–133, doi:10.1080/00031305.2016.1154108.
↑ S. Cassidy, R. Dimova, B. Giguère, J. Spence, D. Stanley: Failing Grade: 89% of Introduction-to-Psychology Textbooks That Define or Explain Statistical Significance Do So Incorrectly. In: Advances in Methods and Practices in Psychological Science. Juni 2019, doi:10.1177/2515245919858072.

[1] Gigerenzer G. (2004). Mindless statistics. J. Soc. Econ. 33, 587–606. doi:10.1016/j.socec.2004.09.033, zitiert nach Fisher, Neyman-Pearson or NHST? A tutorial for teaching data testing. Frontiers in Psychology 2015; 6: 223. PMC 4347431 (freier Volltext)

[2] R. Wasserstein, N. Lazar: The ASA’s Statement on p-Values: Context, Process, and Purpose. In: The American Statistician. Band 70, Nr. 2, 2016, S. 129–133, doi:10.1080/00031305.2016.1154108.

[3] S. Cassidy, R. Dimova, B. Giguère, J. Spence, D. Stanley: Failing Grade: 89% of Introduction-to-Psychology Textbooks That Define or Explain Statistical Significance Do So Incorrectly. In: Advances in Methods and Practices in Psychological Science. Juni 2019, doi:10.1177/2515245919858072.

[1]

[2]

[3]